N-граммы из базы Google Books историки и корпусные лингвисты используют уже не первый год. Но, как известно, если включать в анализ тексты XVI-XVII веков, сканирование с автоматическим распознаванием дает плохие результаты: путаются «длинное s» и f (хотя еще в 2006 г. Эндрю Уэст (Andrew West)
утверждал, что на основании анализа n-грамм можно
(
Read more... )